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基于 国 密 算法 SM2、SM3、SM4 的 高 速 混合 


摘 要 : 随 着 电子 信息 技术 的 快速 发 展 ， 娄 
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日 益 严峻 ， 传 统 单一 制 密码 算法 在 安全 性 与 运算 速率 上 


已 不 能 满足 要 求 。 为 了 解决 大 数据 时 代 下 所 提出 的 加 密 需 求 ， 提 出 了 一 种 基于 国 密 算 法 SM2、SM3、SM4 的 高 速 混 
合 加 密 系 统 的 硬件 设计 方案 , 并 针对 SM2 和 SM4 算法 的 底层 硬件 结构 进行 优化 :对 SM2 算法 采用 Karatsuba-Ofman 


模 来 器 与 点 运算 并 行 方案 进行 优化 ; 
该 系统 所 实现 的 各 算法 电路 均 有 具有 较 高 性 能 
SM4 吞吐 率 最 高 达 53.76 Gbit/s。 相 比 同等 安全 性 的 SM2 算法 ， 
行 对 比分 析 ， 可 证 明 该 方案 在 安全 性 和 加 解密 + 
钥 密码 算法 ; SM4 分 组 加 密 算法 ; 硬件 设计 ; 


果 表 明 ， 
0.71 ns; 


具有 实用 价值 。 与 相关 工作 进 
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对 SM4 算法 提出 了 一 种 基于 复合 域 S 盒 的 二 次 流水 全 展开 硬件 架构 。 实 验 结 
: SM2 的 点 乘 时 间 缩 短 至 68.37 hs; SM3 的 杂凑 值 生成 仅 需 
合 系统 在 加 密 时 间 上 减 小 了 26.67%， 


生 能 上 均 有 一 定 优势 。 


Hardware design of high-speed hybrid encryption System based on SM2, SM3 and SM4 algorithm 


Li Jianli, Mo Yannan, Su Taof, Chen Dihu 
(School! of Electronics & Information Technology, Sun Yat-Sen University, Guangzhou 510006, China) 


Abstract: With the rapid development of electronic information technology, the security of data has become increasingly 


serious. The traditional single cipher algorithm can not meet the requirements any more. In order to solve these problems, this 


paper proposed a hardware design scheme of high-speed hybrid encryption system based on SM2, SM3, SM4, in which the 


hardware structure of SM2 and SM4 algorithms is optimized. Besides, this paper optimized the SM2 algorithm with 


Karatsuba-Ofman modular multiplier and parallel with point operation. For SM4 algorithm, this paper designed a 


subpipelining hardware architecture based on composite field S-box so as to improve its throughout. The experimental results 


showed that all the algorithm circuits implemented by the system have high performance: the point multiplication time of 
SM2 was 68.37 Ls; the hash generation of SM3 only took 0.71 hs; the throughput of SM4 was up to 53.76 Gbit/s. Compared 
with the SM2 algorithm with the same security, this hybrid system had 26.67% less encryption time. By comparing and 


analyzing with related work, it can be proved that this scheme has certain advantages in security and encryption and decryption 


performance. 
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0 引言 


得 整体 方案 更 加 适合 硬件 资源 有 


Er “Ea 


民 的 场景 。V. Shende 等 人 口 


则 结合 了 AES 和 RSA 两 种 算法 的 优点 提出 了 一 种 混合 加 密 
近年 来 ， 随 着 计算 机 技术 的 快速 发 展 以 及 大 数据 、 云 计 ” 方案 ， 提 高 了 系统 的 安全 性 。 在 国 密 算法 方面 ， 文 献 [3, 4] 分 
算 、 物 联网 等 技术 产业 的 横 空 出 世 ， 人 们 在 生活 与 生产 中 越 。 别 选择 了 SM4-ECC 和 SM4-SM2 的 算法 组 合 构建 其 加 密 方 
来 越 离 不 开 各 种 信息 数据 的 传递 与 交互 。 信 息 技术 在 推动 经 ” 案 ， 并 从 软件 层面 证 明 所 提出 的 混合 加 密 体制 在 安全 性 与 扩 
济 与 社会 发 展 的 同时 , 也 面临 着 巨大 的 安全 隐患 :网 络 攻击 、 散 性 系数 上 均 高 于 单一 制 算 法 。 文 献 [5] 则 通过 研究 SM2、 
言 息 泄露 、 隐 私 数据 被 资 等 事件 频 发 ， 信 息 安全 问题 日 益 加 ”SM3 与 SM4 算法 在 变电站 局 域 网 中 的 应 用 情况 ， 设 计 出 一 
剧 。 另 外 ， 各 类 侧 信道 密码 攻击 技术 的 发 展 也 使 得 各 种 单一 ”种 基于 国 密 算法 的 云 存 储 混合 加 密 方 案 。X. Zheng 等 人 咽 利 
加 密 算法 面临 着 严峻 的 安全 性 挑战 。 与 此 同时 , 5G 技术 的 日 用 软 硬 件 协 同 设 计 的 方法 ， 提 出 了 同样 基于 SM2、SM3 和 
益 成 熟 让 人 们 步 入 了 高 带宽 时 代 ， 也 对 数据 的 加 密 速 度 提出 ”SM4 的 加 解密 和 数字 签名 方案 , 与 相关 工作 相 比 其 处 理 速度 
了 更 高 的 要 求 。 在 即时 通信 、 车 联网 应 用 、 远 程 医疗 等 对 延 时 高 了 10% 以 上 。 总 体 而 言 ， 混 合 加 密 体制 不 仅 提高 了 算法 
时 要 求 较 高 的 场景 下 ， 加 密 系 统 的 数据 处 理 速度 变 得 十 分 关 的 安全 性 ， 同 时 也 能 兼顾 加 解密 的 高 效 性 与 密 钥 管理 的 便利 
键 。 因 此 ， 在 大 数据 时 代 下 ， 研 究 如 何在 高 速 传输 的 情况 下 性 ， 优 于 传统 单一 制 加 密 算 法 。 
保障 数据 信息 安全 至 关 重 要 。 国 密 算 法 SM2 和 SM4 是 目前 国内 较为 主流 国产 密码 算 
混合 加 密 技 术 是 结合 了 多 种 加 密 体 制 和 算法 的 一 种 新 型 ”法 ， 在 安全 性 研究 与 硬件 实现 上 已 有 大 量 的 研究 成 果 。 文 献 
加 密 技 术 ， 可 以 根据 实际 需求 选择 不 同 的 加 密 体制 进行 加 密 [7] 基 于 Montgomery 模 乘 算法 , 设计 了 一 种 高 速 双 域 SM2 模 
方案 的 构建 。 目 前 ， 许 多 国内 外 学 者 对 混合 加 密 体制 进行 了 乘 器 ， 并 提出 了 一 种 新 型 的 Wallace 树 乘法 单元 ， 节 省 了 大 
大 量 的 研究 与 分 析 。Mostafaa 等 人 提出 了 一 种 基于 AES 和 ee 种 基于 改进 蒙哥马利 点 乘 算法 的 并 
ECC 的 轻 量 级 混合 加 密 硬件 系统 ， 并 通过 优化 AES 算法 使 运算 架构 ， 通 过 坐标 压缩 以 减少 模 乘 步 又。 文献 [9] 针 对 
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录用 定稿 李 建 立 ， 等 : 
低 端 FPGA 芯片 ， es 和 硬件 实现 两 方面 优化 了 SM2 的 
模 乘 和 模 逆 运算 ， 提 高 了 硬件 资源 的 复 用 率 ， 实 现 了 面积 和 
速度 的 平衡 。 A, i 算法 硬件 架构 的 研究 上 ，Gao00 和 


Wang HI0 均 采用 了 32 轮 轮 间 流 水 全 展开 型 架构 ， 降 低 了 每 
一 组 数据 加 解密 的 平均 时 间 , 提供 了 极 高 的 吞吐 率 。 文 献 [12] 
提出 了 一 种 轮 密 钥 扩展 与 加 解密 模块 硬件 复 用 的 架构 ， 其 占 
用 的 资源 仅 为 传统 设计 的 55%。 文献 [13] 和 FuH 等 人 04 则 在 
轮 间 流 水 全 展开 的 基础 上 对 轮 函 数 内 部 进行 了 
减少 了 电路 的 关键 路 径 。 

从 文献 分 析 与 研究 结果 看 ， 目 前 在 混合 加 密 方面 国外 的 
研究 重点 偏重 于 AES、RSA 以 及 ECC 这 类 国际 算法 ， 而 国 
内 对 国 密 算法 的 混合 加 密 研究 关注 点 主要 集中 在 算法 安全 性 
方面 ， 对 混合 加 密 算法 的 硬件 优化 和 性 能 提升 上 的 研究 比较 
欠缺 。 此 外 ， 在 国 密 算法 SM2 与 SM4 的 硬件 实现 研究 上 也 
仍 存在 一 定 的 优化 提升 空间 。 
基于 上 述 现状 问题 的 分 析 ， 本 文 结 合 三 种 国 密 算法 
各 自 的 优势 , 提出 了 一 种 基于 国 密 算法 SM2、SM3、SM4 
的 混合 加 密 硬 件 系统 设计 ， 在 提高 了 加 密 系 统 安全 性 的 
同时 可 完成 大 量 信息 数据 的 高 速 加 解密 运算 。 同 时 ,还 针 
对 SM2 与 SM4 算法 的 结构 对 其 硬件 架构 进行 了 优化 设 
计 , 最 终 设计 出 一 个 集运 算 速 率 、 硬件 资源 利用 率 以 及 数 
据 安全 性 于 一 体 的 高 速 混合 加 密 硬件 系统 ， 以 解决 信息 
化 建设 中 对 应 用 数据 提出 的 高 速率 、 高 吞吐 率 加 解密 传 
输 需 求 。 


1 ”算法 原理 与 混合 


1.1 SM2 算法 原理 
SM2 椭圆 曲线 密码 算法 是 我 国 公 钥 密 码 算 法 标准 ，] 
2010 年 12 月 首次 公开 。 相 关 研 究 表明 ，SM2 算法 的 安全 性 
达到 了 公 钥 密码 算法 的 最 高 安全 级 别 D5。 
1.1.1 SM2 曲线 参数 选择 
SM2 算法 具有 与 ECC 算法 相同 的 数学 概念 基础 ， 是 
种 基于 求解 椭圆 曲线 离散 对 数 问题 的 加 密 算法 。 椭 圆 曲 线 是 


加 密 系统 设计 原理 


人 


基于 国 密 算法 SM2、SM3、SM4 的 高 速 混合 加 密 系统 硬件 设计 


二 次 流水 切 分 ， 
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图 1 SM2 算法 层次 结构 
Fig. 1 Hierarchy of SM2 

1.2 ”SM3 算法 原理 

SM3 算法 是 一 种 分 组 迭代 的 杂凑 算法 , 可 以 将 任意 长 度 
的 输入 转 为 恒 为 256bit 的 摘要 值 输出 ， 由 国家 密码 管理 局 于 
2010 年 12 月 17 日 发 布 。 SM3 算法 主要 分 为 填充 分 组 以 及 
和 迭代 压缩 两 个 步骤 ， 其 计算 流程 如 图 2 所 示 。 
任意 长 度 

消息 
| 


填充 分 组 


| 过 ol 


256bit 杂 凌 值 
一 


图 2 SM3 算法 计算 流程 
Fig.2 Calculation process of SM3 

填充 分 组 : 假设 输入 的 长 度 为 1 比特。 首先 将 比特 “1” 
添加 到 消息 的 末尾 ， 再 添加 大 个 “0”， 大 为 满足 片 1HK= 448 
mod 512 的 最 小 非 负 整 数 。 然 后 再 添加 一 个 长 度 1 二 进 制 表 
示 的 比特 串 。 填 充 后 的 比特 长 度 为 512 的 倍数 ， 并 按 512bit 
一 组 分 组 。 
迭代 压缩 : 对 分 组 后 的 消息 按 下 列 方式 进行 迭代 计算 : 


一 种 特殊 的 曲线 ， 它 实际 上 是 Weierstrass 方程 所 构成 的 平面 


光滑 曲线 ， 定 义 在 伪 梅 森 素 数 域 GF(p) 上 的 SM2 椭圆 曲线 表 


E:y=x taxt+b (1) 


VD = CF(V®O,BO),i =0,1, 2,...,n—1 (2) 
其 中 ，n=(1+k+65)/512; CF 是 压缩 函数 ，V(0) 为 256bit 初始 
值 IV，BV 是 消息 分 组 ，V 中 是 最 后 的 杂凑 值 结果 。 


1.3 SM4 算法 原理 
SM4 分 组 密码 算法 是 我 国 密码 管理 局 于 2006 年 公布 的 


其 中 ，w b e GF(p)， 且 4483+27b? 0mod p。 在 国家 密码 标 } 


到 内 第 一 个 商用 密码 算法 ， 对 于 我 国 密码 学 研究 的 发 展 起 ] 


eu 


中 ,推荐 的 定义 在 256 位 素数 域 上 的 SM2 椭 线 系统 参数 
为 (所 有 值 均 以 16 进 制 表 示 ): 
素数 p = FFFFFFFE FFFFFFFF FFFFFFFF FFFFFFFF 
FFFFFFFF 00000000 FFFFFFFF FFFFFFFF 
系数 a = FFFFFFFE FFFFFFFF FFFFFFFF FFFFFFFF 
FFFFFFFF 00000000 FFFFFFFF FFFFFFFC 
系数 =28E9FA9E 9D9F5E34 4D5A9E4B CF6509A7 
F39789F5 15AB8F92 DDBCBD41 4D940E93 
1.1.2 SM2 算法 层次 结构 
SM2 算法 在 结构 上 具有 明显 的 层次 性 特点 , 其 自 顶 向 下 
可 以 划分 为 四 个 层次 ， 如 图 1 所 示 。 顶层 为 SM2 应 用 层 , 包 
括 数字 签名 、 密 钥 交 换 和 公 钥 加 密 ， 主 要 通过 调用 点 乘 计算 
模块 来 实现 不 同 的 加 密 功能 。 群 运算 层 为 点 乘 模块 ， 是 SM2 
的 核心 运算 ， 通 过 调用 点 加 与 倍 点 实现 。 点 运算 层 分 为 点 加 
和 倍 点 两 个 模块 ， 分 别 实现 椭圆 曲线 上 两 个 基础 计算 功能 。 
底层 则 是 最 基本 的 模 运 算 单元 ， 包 括 模 加 、 模 减 、 模 乘 以 及 
模 首 运算， 分 别 实现 有 限 域 上 的 各 种 模 运 算 。 本 文 对 于 SM2 
算法 的 硬件 加 速 研究 主要 和 集中 在 点 运算 层 与 模 运 算 层 ， 通 过 
并 行 化 点 运算 以 及 优化 模 乘 运算 实现 高 效 运 算 ， 从 而 提高 
SM2 整体 性 能 。 


极 大 的 推动 作用 09。SM4 算法 是 一 种 分 组 算法 , 分 组 长 度 和 
密 钥 长 度 均 为 128bit。SM4 内 部 的 加 解密 运算 和 密 钥 扩 展 运 
算 都 是 32 轮 的 非 线 性 迭代 结构 ， 而 非 线 性 变换 里 的 基本 运 
算 单元 为 $ 盒 。 其 主要 运算 结构 以 字 (2Z2””) 为 单位 , 一 次 运算 
为 一 轮 变 换 。 定 义 @ 为 32bit 异 或 运算 ，<<<i 为 32bit 循环 
左 移 i 位; 加 密 密 钥 以 MK 表示 ; 轮 密 钥 以 rki 表示 ， 系 统 参 
数 以 FK=(FKo,FKW,FKwFK3) 表示 ， 固 定 参 数 以 
(CKo,CK1,...,CK31) 表 示 。 
1.3.1 加 解密 算法 
加 密 算法 过 程 如 算法 1 所 示 。 
算法 1 SM4 加 密 算法 

输入 : (XXX Xi)E(Z32) ， rho,rk,.…,rka e232 为 轮 密 钥 。 

输出 : 0%,7,%,)e(Z2) 。 
i=0,1,2,...,31: 

Xa = P(X,;, Ki, Ki, Xia Tk)= X;, DT(X, BX OD 

X,, 四 Xi Drk) 

2. (bE)=(X3s, Xa, X33, X») 
其 中 ,下 为 轮 变换 函数 ; 7 为 合成 置换 ， 包含 了 非 线 性 变换 zt 
和 线性 变换 工 ， 即 Z(.)=L(A.)); z 内 部 为 四 个 并 行 $ 盒 ， 工 
为 线性 变换 。 合 成 置换 了 过 程 如 算法 2 所 示 。 
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算法 2 合成 置换 了 算法 


输入 : A=(4ao,ai,q,43)e (Zs) 。 


输出 : 


C=(c0,0,C2,03) E(Z) 。 


1. B=(b,b,b,,b)=7T(A)=(Sbox(a,),Sbox(a),Sbox(a,),Sbox(a;)) 
2. C=L(B)=B®@(B<<<2)®(B<<<10)®(B<<<18)®@ (B<<<24) 


解密 算法 与 加 密 算法 的 运算 流程 相同 ， 只 是 轮 密 钥 的 使 


用 次 序 与 加 密 相反 。 
1.3.2 密 钥 扩展 算法 


密 钥 扩展 运算 过 程 如 算法 3 所 示 。 


算法 3 密 钥 扩 


输 
输出 : 


1s 


展 算法 


2. 1=0,1,2,...,31: 
rk = Ks = KOT'(K, DK DK,s DCK) 


其 中 ,了 7 中 的 线性 变换 为 L”': (B<<<13)@(B<<<23)， 


险 入 : MK = (MEKo, MK', MK,, MK;), MK; eZ»*(i=0,1,2,3); 
rk eZ,*(i=0,1,2,...,31) 
(Ko, Ki, Ky, Ks) =(FK, ® MK,,FK, ® MK,,FK, ® MK,, FK,® MK,) 


通过 传输 通道 


c) 接收 方 在 收 到 数 
算法 将 SM4 密 钥 解密 出 来 。 然 后 利 月 


等 : 基于 国 密 算法 SM2、SM3、SM4 的 高 速 混合 加 密 系 统 硬件 设计 


同 发 送 给 接收 方 ; 
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时 后 , 首先 利 


算法 解密 所 收 到 


的 信 


息 密 文 C, 得 到 尚未 验 记 


块 的 摘要 值 。 待 三 种 算法 均 计算 完成 后 ， 将 三 组 数 


接着 使 用 SM3 算 济 


计算 得 到 信息 


收 到 的 摘要 值 A 
过 程 中 没有 被 定 


若 两 组 摘要 值 不 一 致 ， 则 说 明 数 # 
出 来 的 数据 存在 安全 风险 ， 系 统 发 出 警告 并 退出 解密 。 

提出 的 混合 加 密 系统 可 以 发 现 : 在 加 
四 明文 的 SM4 加 密 计 算 ; 而 


从 理论 上 分 析 本 文 
密 过 程 中 最 耗 时 的 步骤 为 海量 数 # 


姑 为 解密 过 程 是 


步骤 主要 为 对 密 钥 密 文 的 SM2 解密 计算 , 以 及 对 大 
文 的 SM4 解密 计算 。 基 于 以 


系统 的 整体 性 能 


进行 对 比 验证 : 若 一 致 ， 则 
改 , 可 输出 所 解密 的 信息 明文 P, 完成 解密 ; 
昌 在 传输 中 已 被 窜 办 


上 分 析 可 入 


明文 P 的 摘 


打包 ， 


] SM2 私 钥 , 通过 SM2 


日 SM4 密 钥 ， 通 过 SM4 


CE 的 信 忌日 


从 表 数 ] 


要 值 B, 并 与 所 


三 种 算法 串 行 执行 的 ， 所 以 决定 解密 速度 的 
量 信息 密 


自己 


由, 若 想 提高 混合 加 密 
， 需 考虑 提升 SM2 和 SM4 算法 的 计算 速率 


分 与 加 解密 运算 中 的 7 变换 相同 。 和 硬件 效率 。 因 此, 本 文 的 研究 重点 将 集中 在 对 SM2 和 SM4 
1.4 基于 SM2、SM3、SM4 算法 的 高 速 混合 加 密 系统 算法 的 硬件 优化 和 性 能 提升 上 ， 采 用 并 行 化 与 流水 线 技术 对 两 
SM2 非 对 称 算法 得 益 于 椭圆 曲线 密码 体制 ,其 公 钥 可 对 ”个 算法 的 硬件 架构 进行 优化 设计 ， 解 决 制约 加 解密 速度 提升 的 
外 公开 , 可 实现 密 钥 的 便捷 管理 , 信息 传输 的 安全 性 也 较 高 。 瓶颈 ， 保 证 混合 加 密 系统 能 够 满足 高 性 能 密码 运算 的 需求 。 
但 是 由 于 涉及 大 位 宽 的 复杂 模 运 算 ，SM2 算法 的 加 解密 速度 有 
普遍 较 慢 ， 仅 适用 于 加 密 小 块 数据 。SM3 算法 属于 单 向 加 密 。 2 ”SM2 算法 的 硬件 加 速 设计 
的 密码 体制 ， 对 于 明文 信息 只 能 计算 出 杂凑 值 ， 而 无 法 从 杂 椭圆 曲线 的 点 乘 运 算是 SM2 算法 的 核心 运算 , 其 运行 速 
凑 值 反 向 推算 出 对 应 明文 数据 。SM4 对 称 算法 虽然 结构 简单 、， 度 决定 了 SM2 算法 的 速度 。 点 乘 运算 一 般 涉及 大 量 大 数 运 
复杂 度 低 、 加 解密 速度 快 ， 但 是 其 需要 额外 的 安全 信道 分 发 。 算 ， 而 这 些 运算 操作 用 软件 实现 会 非常 复杂 且 效 率 低 下 ， 攻 
密 钥 ， 密 钥 管 理 复杂 且 安 全 性 难以 保证 。 此 通常 采用 硬件 优化 的 实现 方式 以 提高 SM2 算法 的 性 能 。 本 
本 文 在 研究 了 SM2、SM3 以 及 SM4 三 种 算法 各 自 的 特 ” 文 在 综合 考虑 性 能 与 资源 的 情况 下 ， 采 用 自 底 向 上 的 思路 ， 
点 后 ， 提 出 了 一 种 兼顾 加 密 安全 性 、 高 速 性 以 及 密 钥 管理 便 。 对 SM2 算法 的 硬件 实现 进行 优化 设计 ,首先 从 底层 的 模 乘 运 
利 性 的 混合 加 密 系 统 ， 其 基本 原理 如 下 : 基于 大 数据 时 代 高 算出 发 ， 对 模 乘 器 的 硬件 实现 采用 Karatsuba-Ofman 算法 进 
速率 加 解密 传输 的 需求 , 采用 经 本 文 硬件 优化 后 的 SM4 算法 ，” 行 优 化 设计 ， 降 低 计算 复杂 度 与 硬件 资源 的 消耗 。 其 次 ， 本 
快速 加 解密 海量 的 应 用 数据 ; 利用 SM2 算法 安全 性 高 、 密 钥 。” 文 还 分 析 研 究 了 不 同 架 构 下 点 加 和 倍 点 运算 的 硬件 性 能 提升 
管理 简单 的 特点 ， 采 用 同样 经 优化 后 的 SM2 算法 对 SM4 密 。 ”与 资源 消耗 情况 , 在 资源 合理 运用 的 情况 下 实现 了 SM2 算法 
进行 加 解密 ; 另外 ,本 系统 还 采用 SM3 杂凑 算法 对 加 解密 。 ”的 快速 点 乘 运 算 。 
前 后 的 明文 进行 杂凑 值 对 比 验 证 ， 防 止 信息 在 传输 过 程 中 被 “2.1 模 乘 运算 优化 设计 
窜改 。 由 于 混合 使 用 了 三 种 不 同体 制 的 加 密 算法 ， 本 文 提出 SM2 算法 在 进行 点 乘 运算 的 过 程 中 会 频繁 地 调用 乘法 
的 混合 加 密 系 统 在 传输 密 钥 时 不 再 需要 额外 的 安全 信道 ， 同 “器 进行 大 数 模 乘 运算 , 故 实现 模 乘 的 快速 运算 是 提高 SM2 算 
时 还 可 以 实现 大 量 数据 的 高 速 加 解密 与 验证 运算 ， 其 加 解密 。 ”法 性 能 的 一 个 关键 。 常 见 的 模 乘 方法 主要 有 Barrett 算法 、 
流程 如 图 3 所 示 。 Montgomery 算法 、 大 数 乘法 搭配 快速 模 约 减 等 ("1。Barrett 算 
法 除了 乘法 以 外 还 采用 了 除法 操作 ， 对 于 硬件 实现 来 说 该 算 
| 法 在 运算 时 间 与 资源 消耗 上 都 非常 低 效 。 而 Montgomery 算 
和 全 攻 二 二 全 |- 法 虽然 通过 移 位 和 加 法 操作 代替 了 除法 操作 ， 但 是 其 运算 结 
SA emxe] 果 并 非 模 乘 的 最 后 结果 ， 仍 需要 进一步 的 转换 运算 ， 更 适合 
| 1 用 于 多 次 乘法 的 模 宕 运算 ， 对 于 单 次 模 乘 计算 并 无 优势 。 因 
2 | 此 ， 本 文选 择 采 用 大 数 乘法 搭配 快速 模 约 减 的 方式 实现 模 乘 
庆 一 一 一 be | , SM4 密 铀 Sa 运算 。 
SM2 公 角 Ee 在 大 数 乘法 方面 ， 运 用 Karatsuba-Ofman 算法 的 分 治 思 
六 传 才 二 收 方 想 ， 将 256 位 的 乘法 拆 分 成 三 次 128 位 乘法 ， 并 以 基于 129 
[LS 多 EL sw 一 一 |] 位 乘法 器 的 方式 完成 大 数 乘法 运算 。 相 比 于 直接 使 用 256 位 
图 3 混合 加 密 系统 加 解密 流程 乘法 器 08,Karatsuba-Ofman 算法 虽然 需要 更 多 的 时 钟 周 期 来 
Fig.3 Encryption and decryption process of hybrid encryption system 完成 ， 但 是 减少 了 25% 的 计算 量 ， 硬 件 资源 消耗 更 小 ， 提 高 


假设 需要 加 密 传 


收 方 之 间 的 传输 通道 是 不 安全 的 ， 贝 


如 下 : 


输 的 数据 为 信息 明文 P， 


发 送 方 和 接 
1 具体 的 加 解密 传输 过 程 


a) 首先 接收 方 使 用 SM2 算法 生成 配对 的 公 钥 和 私 钥 ， 
并 在 加 密 计 算 前 先 将 公 钥 发 送 给 发 送 方 ; 


b) 发 送 方 接收 至 


| SM2 公 和 钥 后 ， 


密 钥 生 成 密 钥 密 文 ， 


同时 使 用 SM4 


成 信息 密 文 C, 另外 


使 


尾 两 组 数 扩 


使 用 SM2 算法 加 密 SM4 
算法 加 密 信息 明文 P 生 
日 SM3 算法 计算 P 中 首 


居 


了 运算 效率 与 资源 利 月 


算法 4 所 示 。 


算法 4 256 位 Karatsuba-Ofman 算法 


输入 : 256 位 整数 A，B， 且 有 A4=arx238+ar ， 


输出 : C=AxB，C 为 512 位 整数 。 
1 

2. P=ayxbys, C=P+h, GCG={P,P}-Cx2™ 
3 3 B=axbh, C=C + 


由 率 ， 基 于 该 算法 实现 的 256 位 乘法 如 


B=by x2% +b, 。 
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该 算法 中 包含 了 三 次 128 位 的 加 /减法 、 两 次 512 位 的 加 
/减法 、 两 次 128 位 的 乘法 以 及 一 次 129 位 的 乘法 。 同 时 ， 算 
法 中 2 的 究 次 运算 在 硬件 中 可 以 通过 移 位 操作 实现 ， 以 节省 
硬件 消耗 与 计算 时 间 。 根 据 算法 4， 提 出 如 图 4 所 示 的 256 
位 Karatsuba-Ofman 乘法 硬件 设计 : 


QH .oo—、 
(2) 
bp > 
ar Ee ! : 
v | ! 
EB <<128 | | : 
取 补 码 > ; 512 位 乘法 结果 
129 位 
: 乘法 器 
: \ 512 位 
: 外 


图 4 256 位 Karatsuba-Ofman 乘法 硬件 设计 
Fig.4 Hardware design for Karatsuba-Ofman multiplication in 256 bits 
该 硬件 设计 采用 一 个 129 位 的 乘法 器 、 两 个 并 行 的 512 
位 加 法 器 以 及 移 位 寄存 器 实现 ， 同 时 对 加 法 运算 进行 二 级 并 
行 处 理 ， 将 256 位 的 乘法 运算 降低 至 三 个 时 钟 周期 。 其 中 乘 
法 器 负责 128 位 与 129 位 的 乘法 运算 ， 加 法 器 负责 128 位 与 
512 位 的 加 减法 运算 ， 通 过 是 否 取 补 码 实现 。 该 设计 在 缩短 
运算 周期 的 同时 也 实现 了 较 低 的 硬件 开销 ， 资 源 利 用 率 达 到 
了 88.8%。 
在 取 模 方面 ， 由 于 本 文选 取 的 素数 p 为 伪 梅 森 素数 。 根 
据 其 性 质 ， 该 素数 可 表示 为 少量 的 2 的 暴 的 和 或 差 ， 本 文选 
取 的 素数 则 可 改写 为 ps =2”* -2 -2%+2% 1。 根据 该 表达 式 ， 


系 ， 将 不 存在 相关 性 的 运算 进行 并 行 加 速 ， 从 算法 实现 层面 
降低 点 加 运算 时 间 。 对 算法 步骤 进行 拆 分， 根据 运算 相关 性 
提出 了 点 加 计算 的 二 级 并 行 加 速 方案 ， 如 算法 8 所 示 。 


ChinaXiv 合 作 期 刊 


录用 定稿 李 建 立 ， 等 : 基于 国 密 算法 SM2、SM3、SM4 的 高 速 混合 加 密 系 统 硬件 设计 第 39 卷 第 9 期 
运算 复杂 度 最 低 的 选择 。Jacobian 投影 - 仿 射 混合 坐标 下 点 加 


运算 与 Jacobian 投影 坐标 下 倍 点 运算 的 定义 分 别 如 算法 6、 
7 所 示 09， 


算法 6 _ Jacobian 投影 - 仿 射 混合 坐标 下 点 加 运算 
输入 : P=(X,Y,Z)，Q=(X,b,l), PzQO, Zz0. 
输出 : P+Q=(X;,¥,2;)。 
X =( 了 DZ FX XXZ +X) 
郧 =( 肪 2 一 部)CX(X2Z2 —X) —X) -YX —X) 
Z, =(X,Z7 和)Z 
算法 7 Jacobian 投影 坐标 下 倍 点 运算 
输入 : P=(X,7,2)，Z#0,， a=p-3。 
输出 : 2P=(X;,3,Z) 。 
和 =[3(CX +Z2)(CX 27) — X.Y? 
中 =3(0 +Z2)(X 一 Z2)04X YX,)— BY 
Z, =27Z 
对 于 点 加 算法 ， 通 过 分 析 算 法 中 各 步骤 数据 间 的 依赖 关 


算法 8 ”Jacobian 投影 - 仿 射 混合 坐标 下 二 级 并 行 点 加 运算 
输入 : P=(Xi,Y,Z)，Q=(X,b,1), PzQO, Z#0, 

输出 : P+Q=(X;,8,2;)。 

模 乘 器 @ 模 乘 器 1 模 加 减 器 8 模 加 减 器 1 

4=ZxZ B=Y,xZ, NA NA 

AxB C=AxX, A=AB-Y B=C-X 


Z3=BxZ, D=BxB E=C+X, NA 


DxX| B=DxB C=DX,—X; NA 
AxC BxY Y=AC-BY NA 
算法 6 可 知 ， 点 加 运算 需要 进行 9 次 的 模 乘 计算 与 3 


1 
2 
3 
4 AxA DxE X;=AA-DE NA 
5 
6 


次 的 模 平 方 运算 ， 若 采用 传统 的 循环 串 行 计算 方式 则 至 少 需 


可 以 采用 快速 模 约 减 算法 快速 地 对 512 位 的 乘法 结果 取 模 。 
参考 文献 [19] 中 的 快速 模 约 减 算法 ， 完 成 整体 模 乘 器 的 硬件 


要 十 二 轮 运算 来 完成 。 而 本 文 提出 的 二 级 并 行 方案 则 通过 采 
用 两 个 模 乘 器 的 方法 进行 加 速 ， 对 乘法 运算 采用 并 行 的 计算 


电路 设计 如 图 5 所 示 。 快 速 模 约 减 算 法 通过 简单 的 截 位 拼接 
与 加 减法 即 可 完成 取 模 运算 ， 省 去 了 常规 取 模 中 繁琐 的 乘法 
与 除法 运算 ， 有 利于 缩短 整体 的 运算 时 间 、 节 省 硬件 的 资源 
消耗 。 


方式 处 理 ， 从 而 将 运算 迭代 缩短 至 六 轮 。 根 据 所 提出 的 点 加 


二 级 并 行 方案 ， 点 加 模块 在 硬件 实现 上 需要 实例 化 两 个 模 乘 
器 、 三 个 模 加 减 器 ,并 通过 共享 的 寄存 器 (4、B、C、D, 马 ) 存 
储 与 调用 中 间 的 计算 结果 。 在 研究 了 上 串 行 、 二 级 并 行 以 及 三 
级 并 行 Pq 三 种 方案 每 轮 从 代 中 最 长 的 运算 路 径 后 ， 可 得 出 如 
表 1 所 示 的 运算 时 间 对 比 表 : 


NE 和 人 表 1 不 同 并 行 度 点 加 方案 的 运算 时 间 对 比 
E | | | 茎 而 下 : Tab.1 Comparison of operation time for point addition 
EB 本 六 Ba : schemes with different parallelism 
ee - 下 、waneapns 。 并 行 度 运算 周期 加 速 比 
| | ; | 串 行 11M xScycles +2A/Sxlcycle+lcycle =58cycles NA 
二 级 并 行 6M xScycles + 4A/S xl1cycle +1lcycle =35cycles 1.657 
三 级 并 行 SM xScycles +5A/ Sxlcycle+lcycle =31cycles 1.871 


图 5 模 乘 器 硬件 结构 
Fig.5 Hardware structure of modular multiplication 
该 模 乘 器 采用 了 Karatsuba-Ofman 算法 与 快速 模 约 减 算 
法 相 匹配 的 方式 ， 仅 利用 低位 宽 加 法 、 乘 法 以 及 移 位 等 简单 
的 操作 ， 最 终 在 四 个 周期 内 完成 了 复杂 的 256 位 模 乘 运算 。 
2.2 点 运算 并 行 优化 设计 


其 中 M 代表 模 乘 ，4/S 代表 模 加 与 模 减 运算 。 由 于 在 模 


乘 运算 以 及 每 轮 迭 代 后 ， 共 享 寄存 器 需要 额外 一 个 时 钟 周期 
进行 数据 的 暂 存 与 传输 ， 因 此 在 点 运算 中 模 乘 实际 需要 5 个 
时 钟 周 其 


通过 对 比 可 知 ， 二 级 并 行 方案 和 文献 [20] 中 的 三 级 并 行 


方案 与 传统 串 行 方案 相 比 在 速度 上 均 有 极 大 的 提升 。 而 三 级 
并 行 方 案 中 虽然 在 运算 时 间 上 是 三 种 方案 中 最 快 的 , 但 是 该 


方案 需要 例 化 三 套 模 乘 器 与 模 加 减 器 ， 其 在 硬件 消耗 上 也 是 


点 运算 层 是 实现 点 乘 运算 的 基础 ， 因 此 对 点 加 和 倍 点 运 


三 者 中 最 高 。 因 此 ， 本 文 在 综合 考虑 性 能 与 硬件 资源 的 因素 


算 进 行 优化 加 速 也 非常 重要 。 在 Jacobian 投影 - 仿 射 混合 坐标 
下 实现 点 加 、 在 Jacobian 投影 坐标 下 实现 倍 点 的 组 合 方式 可 
以 避免 耗 时 的 模 道 运算， 同时 该 组 合 方式 也 是 众多 坐标 系 中 


后 ， 最 终 决 定 采 用 二 级 并 行 的 方式 实现 点 加 运算 。 


同 理 ， 对 于 倍 点 算法 本 文采 用 相同 的 分 析 方 式 提出 了 如 


算法 9 所 示 的 二 级 并 行 加 速 方案 。 
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算法 9 Jacobian 投影 坐标 下 二 级 并 行 倍 点 运算 
输入 : P=(Xi,7,21)，Z#*0， 
输出 : 2P=(X;,%,2;) 
模 乘 器 8 模 乘 器 1 模 加 减 器 8 模 加 减 器 1 模 加 减 器 2 
1 A=YxZ ZixZ B=Y+% C=X+Z2 C=X,-2? 
2 A=CxD B=BxB Z=A+A C=B+B NA 
3 C=CxX D=BxX A=A+A A=A+2A NA 
4 AxA BxY B=BY+BY X;=AA-C C=D-X, 
5 AxC BxY Y=AC-BY NA NA 


a=p-3; 


倍 点 运算 需要 进行 6 次 的 模 乘 计算 与 4 次 的 模 平 方 运算 ， 
根据 本 文 提出 的 二 级 并 行 方案 ， 可 将 倍 点 运算 的 迭代 减 小 至 
五 轮 。 在 硬件 实现 上 ， 们 点 模块 同样 需要 实例 化 两 个 模 乘 器 
ie、 k 享 寄存 器 。 倍 点 运算 三 种 方案 

运算 时 间 对 比如 表 2 所 示 。 

表 2 不同 并 行 度 倍 点 方案 的 运算 时 间 对 比 


Tab.2 Comparison of operation time for double point 


Schemes with different parallelism 


: 基于 国 密 算法 SM2、SM3、SM4 的 高 速 混合 加 密 系统 硬件 设计 


并 行 度 运算 周期 加 速 比 
串 行 9M xScycles+14/1Sxlcycle+lcycle=47cycles NA 
二 级 并 行 SM xS5cycles +5A/ Sxl1cycle+lcycle=31cycles 1.516 
三 级 并 行 4M xScycles +6A/Sx 人 +lcycle=27cycles 1.741 
可 以 看 到 ， 二 级 并 行 方案 在 ; 运算 周期 上 比 串 行 方案 有 一 


er 本 文 在 倍 点 
样 选择 了 兼顾 性 能 与 资源 消耗 的 二 级 并 行 方 案 。 
2.3 点 乘 运算 的 实现 


运算 的 实现 同 
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或 ROM 的 方式 简单 实现 ， 但 是 面积 开销 较 大 ， 电 路 性 能 
难以 提升 。 代 数 式 S 盒 又 分 为 有 限 域 求 着 和 复合 域 求 道 两 种 
构造 方式 。 而 有 限 域 上 的 求 逆 运算 非常 复杂 ， 难 以 0 
现 ， 复 合 域 求 逆 的 方式 则 在 运算 量 和 硬件 消耗 上 均 很 小 ， 适 
合用 以 硬件 实现 。 
在 2007 年 Liu 等 RJ 提出 了 一 种 用 式 (3) 所 示 的 代数 式 构 
造 S 盒 的 方法 , 即 S 盒 可 以 通过 仿 射 变换 和 乘法 求 逆 来 实现 : 
S(X)=I1(x:A+C):A,+C, G) 
其 中 , x 是 S 盒 的 8 位 二 进 制 输入 ; 41，42 为 循环 矩阵 ; C1， 


C2 为 行 向 量 ;， 7(x) 是 GF(28) 域 上 的 乘法 求 逆 运 算 。 在 复合 域 
上 进行 乘法 求 道 ， 可 以 在 很 大 程度 上 简化 运算 复杂 度 。 利 用 
复合 域 求 GF(C28) 域 上 乘法 逆 元 的 运算 过 程 如 图 7 所 示 。 
GFC9 
Ga9 GFoQ) 计算 GF(25 3 记 元 
| GF | | GFi00) | | GFo (2) | | GFooC2) | Servcoa] 
计算 GF((C23 53 闻 元 
计算 GFC3 逆 元 ] [ED 
| szaaca] | GFin09] Gy | sawca| GF (0 


7 ”复合 域 乘法 求 逆 运 算 过 程 

Fig.7 The process of inverse transformation over composite field 
其 主要 步骤 如 下 : 一 、 利 用 同 构 映 射 TI 和 用 将 GF(28) 
域 上 的 元 素 映射 到 复合 域 GF(((22)”)); 二 、 在 GFQ2) 域 上 用 


点 乘 运算 的 实质 是 对 椭圆 曲线 坐标 进行 多 次 点 加 与 倍 点 
计算 的 结果 , 故 在 电路 实现 上 需要 频繁 调度 点 加 与 信 点 模块 。 
由 于 本 文采 用 不 同 的 坐标 系 实现 点 加 和 倍 点 运算 以 减少 耗 时 
的 横道 运算 次 数 ， 因 此 还 需要 相应 的 坐标 转换 模块 ， 从 而 将 
最 终 的 点 乘 结果 转换 至 仿 射 坐标 系 下 。 图 6 为 点 乘 运 算 的 组 
成 模块 。 


P | 信 点 模块 


点 加 模块 | 
25,| 转换 模块 > Q=kP 


图 6 点 乘 模块 组 成 结构 
Fig.6 Structure of point multiplication module 
点 乘 模块 通过 循环 调用 256 次 两 个 点 运算 模块 完成 256 
位 的 点 乘 计算 ， 并 采取 移 位 寄存 器 搭配 多 路 选择 器 的 方式 来 
判断 是 否 需 要 进行 点 加 。 其 中 倍 点 与 点 加 模块 均 采用 了 二 级 
并 行 的 方案 与 Karatsuba-Ofman 算法 模 乘 器 进行 加 速 。 


3 ”SM4 算法 的 硬件 加 速 设计 
SM4 算法 的 高 速 实 现 是 提升 大 量 数据 加 解密 速度 的 关 


键 , 在 硬件 实现 上 对 SM4 算法 进行 优化 加 速 同样 重要 。 本 文 
对 S 盒 的 硬件 实现 进行 了 研究 ， 采 用 复合 域 求 逆 的 方式 来 构 
造 ; 同时, 还 在 此 基础 上 提出 一 种 二 次 流水 全 展开 硬件 架构 ， 
并 对 轮 函 数 模块 进行 硬件 复 用 ， 以 较 小 硬件 开销 实现 了 极 高 
的 吞吐 量 。 

3.1 基于 复合 域 求 逆 S 盒 的 实现 

S 盒 是 SM4 实现 中 对 性 能 影响 最 大 的 部 分 , 其 在 很 大 程 
度 上 决定 了 整个 SM4 算法 的 硬件 实现 性 能 。 目 前 $ 盒 的 构 
造 方 法 主要 分 为 查 表 式 与 代数 式 。 传 统 的 查 表 式 S 盒 是 一 个 
包含 256 个 数据 的 字 节 代 换 表 ， 虽 然 硬 件 上 可 以 采用 寄存 器 


异 或 运算 求 出 GF(22) 的 道 元 ; 三 、 将 GF(22) 的 道 元 结果 回 代 
运算 ， 用 基于 GF(22) 的 乘法 运算 求 出 GF(C22) 逆 元 ; 四 、 将 
GF((22)”) 逆 元 结果 回 代 运算 ， 用 基于 GF((22)?) 的 乘法 运算 求 
出 GF(((C22) 久 的 逆 元 ; 五 、 利 用 逆 同 构 映 射 Ti! 和 7! 将 求 
逆 结 果 从 GF(((22)?)?9) 映 射 回 GF(28) 域 ， 最 终 得 到 GF(28) 域 
的 乘法 逆 元 结果 。 

以 @ 代 表 异 或 门 ， 根 据 图 7 并 参考 文献 [22] 中 关于 复合 
域 求 道 的 设计 ， 对 仿 射 变换 和 同 构 映 射 部 分 进行 化 简 合 并 ， 
设计 出 复合 域 求 逆 $ 盒 的 硬件 结构 如 图 8~11 所 示 。 


8 bit 8 bit 8 bit 


图 8 复合 域 $ 盒 基本 结构 
Fig.8 Structure of S-box based on the inverse transformation 


二 


over composite field 


GF1(Q))| 二 


GF (QD 3 |GF (29 3) 系数 
系 方 电 中 


乘法 电路 
图 9 GF ((24) 2) 逆 元 电路 
Fig.9 Hardware structure of inversion on GF ((24) 2) 


— 4hbit 
GE 一 全 


GF 029 7 a Ar |GF (2 习 系 数 
乘法 电路 乘 方 电路 


图 10 ”GF ((22) 2) 逆 元 电路 
Fig. 10 Hardware structure of inversion on GF ((22) 2) 
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吞吐 率 计 算 。 本 文 首先 采用 轮 内 流水 的 结构 实现 单 轮 轮 函数 
以 提高 时 钟 频 率 f， 再 采用 轮 间 流水 的 结构 完成 整体 SM4 算 
法 电路 以 降低 平均 处 理 轮 数 N， 从 而 实现 高 速 运 算 。 

3.2.1 轮 内 流水 处 理 结构 


要 想 提 高 电路 的 时 钟 频率 ， 就 必须 要 降低 每 轮 运算 中 的 
图 11 GF (22) 逆 元 电路 运算 量 ， 尤 其 是 在 轮 函 数 运算 较为 复杂 的 时 候 ， 其 关键 路 径 
Fig. 11 Hardware structure of inversion on GF (22) 限制 了 在 硬件 实现 下 的 最 大 时 钟 频 率 。 针 对 这 种 情况 ， 可 以 


可 见 , 在 最 底层 GF(22) 子 域 上 的 求 逆 运算 仅仅 只 用 到 了 采用 轮 内 流水 处 理 结构 进行 加 速 ， 通 过 将 轮 函数 内 的 运算 单 
异 或 运算 。 男 外 ， 根 据 扩展 式 对 系数 乘 方 运算 进行 化 简 优化 。” 元 进行 拆 解 后 插入 寄存 器 以 建立 流水 线 ， 进 而 构造 轮 内 流水 
后 ， 设 计 出 各 域 上 的 乘法 电路 与 系数 乘 方 电路 硬件 电路 结构 。” 结构 。 
分 别 如 图 12 和 13 所 示 。 分 析 表 3 中 SM4 电路 的 关键 路 径 , 在 轮 函 数 电路 中 的 不 
同位 置 插 入 寄存 器 ， 设 计 出 如 图 14 所 示 的 四 种 轮 内 流水 结 
构 。 轮 内 流水 结构 将 每 一 轮 的 运算 从 内 部 切 分 ， 缩 短 了 整体 
电路 的 关键 路 径 ， 极 大 地 降低 ] 路 中 每 拍 的 运算 时 间 。 


起 型 络 | - xAyT 
i Ka 


图 12 GF ((24) 2) 和 GF (22) 乘 法 电路 
Fig. 12 Hardware structure of multiplication on GF ((24) 2) and GF (22) 
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图 13 ”GF ((24) 2) 和 GF ((22) 2) 系 数 乘 方 电路 i i 
Fig. 13 Hardware structure of square on GF ((24) 2) and GF ((22) 2) I | 
经 优化 后 的 S 盒 电路 仅 使 用 数量 较 少 的 异 或 门 和 与 门 即 图 14 SM4 轮 内 流水 结构 

可 实现 256 位 数据 的 替换 运算 ， 相 比 于 直接 使 用 查找 表 的 方 Fig. 14 Subpipelined structure of the round function circuit in SM4 
式 , 该 方案 极 大 地 降低 了 运算 复杂 度 和 硬件 开销 。 同 时 ， 3.2.2 轮 间 流 水 处 理 结构 


态 灯 


用 纯 组 合 逻 辑 实现 的 S 盒 电路 也 为 后 续 进 行 轮 内 流水 优化 一 般 而 言 ， 传 统 的 SM4 算法 采取 循环 迭代 式 的 结构 实 
供 了 便利 。 在 基于 复合 域 求 道 S 盒 的 基础 上 , 根据 SM4 算法 现 ， 即 仅 实 例 化 一 个 轮 函 数 电路 ， 并 通过 不 断 重复 调用 此 电 


的 描述 ,完成 了 SM4 单 轮 轮 函数 的 硬件 设计 ,并 分 析 各 电路 。 路 以 实现 32 轮 的 运算 。 对 于 传统 循环 友 代 式 结 构 , 其 每 组 数 
模块 的 资源 消耗 情况 和 关键 路 径 如 表 3 所 示 。 据 的 加 解密 时 间 至 少 为 32 个 周期 ， 下 一 组 数据 需要 等 待 上 
表 3 SM4 各 电路 模块 的 资源 消耗 与 关键 路 径 一 组 数据 循环 计算 32 次 后 方 可 开始 计算 ， 实 际 吞 吐 率 并 不 

Tab. 3 Gate counts and critical paths of functional blocks in SM4 高 。 因 此 ， 该 结构 虽然 能 节省 大 量 电路 开销 ， 但 是 其 运算 效 

电路 模块 逻辑 门 数 关键 路 径 率 低下 ， 不 适合 高 性 能 加 解密 系统 的 设计 。 

GF ((24) ”) 系数 乘 方 电路 4 XOR 2 XOR 而 轮 间 流 水 处 理 结 构 则 是 指 以 轮 函 数 作为 基本 运算 单元 ， 
GF (22) 乘 法 电路 3AND+4XOR 1AND+2XOR 采取 循环 展开 的 方式 ， 构 造 流 水 线 ， 实 现 数据 的 流水 处 理 。 

GF (24) 乘 法 电路 6AND +13 XOR 1AND+4XOR 体 而 言 ， 轮 间 流 水 结构 在 进行 电路 设计 时 实例 化 32 个 轮 

GF (22) 逆 元 电路 1 XOR 1 XOR 函数 电路 ， 并 在 每 一 轮 运算 之 间 用 寄存 器 隔 开 ， 每 组 数据 无 

GF ((22)3) 逆 元 电路 9AND+15XOR 2AND+7XOR 须 等 待 , 可 以 以 流水 的 形式 紧 跟 上 组 数据 输入 电路 进行 计算 。 
GF ((24)3) 逆 元 电路 27AND + 60XOR 4AND +17 XOR 轮 间 流水 处 理 的 优势 在 于 ， 当 流水 线 一 旦 构造 完成 ， 系 统 将 


映射 模块 30 XOR 7 XOR 在 每 个 时 钟 周 期 完成 一 组 密码 运算 ， 平 均 下 来 每 组 数据 的 加 
道 映射 模块 26 XOR 7 XOR 解密 时 间 仅 为 一 个 周期 ， 极 大 地 提升 了 整体 电路 的 吞吐 率 。 
复合 域 S 盒 27AND + 116 XOR 4AND +31XOR 在 采用 图 14 所 示 的 轮 内 流水 结构 的 基础 上 ， 对 SM4 电 
SM4 单 轮 轮 函数 108 AND + 472 XOR 4AND+36XOR 路 进行 循环 全 展开 , 以 轮 间 流 水 的 方式 实现 SM4 的 整体 电路 
3.2 ”SM4 算法 的 流水 线 结构 设计 设计 ， 最 终 SM4 算法 的 硬件 电路 架构 如 图 15 所 示 。 


SM4 算法 的 吞吐 率 计 算 公 式 如 式 4 所 示 , 其 中 B 代表 处 
理 的 数据 位 宽 ， 在 这 里 固定 为 128 位 ; /代表 电路 频率 ; N 代 ws 名, 2 
表 平 均 每 组 加 解密 数据 的 处 理 轮 数 。 由 此 可 见 , 要 提高 SM4 “A 
算法 的 吞吐 率 一 方面 要 对 电路 的 关键 路 径 进行 优化 ， 提 升 硬 
个 整体 频率 户 另 一 方面 还 要 降低 每 组 加 解密 数据 的 平均 处 
理 轮 数 NN。 


Bxf 


Throughput = 和 (4) 
根据 SM4 算法 的 定义 可 知 ， 该 算法 是 由 32 轮 完 全 相同 
的 轮 函 数组 成 ， 且 在 加 解密 过 程 中 前 后 数据 完全 独立 ， 因 此 图 15 SM4 硬件 电路 架构 
可 以 采用 流水 线 处 理 的 结构 来 实现 SM4 分 组 密码 算法 的 高 Fig. 15 High speed hardware architecture for SM4 
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录用 定稿 李 建 立 ， 等 : 基于 国 密 算法 SM2、SM3、SM4 的 高 速 混合 加 密 系统 硬件 设计 第 39 卷 第 9 其 
该 电路 采用 了 复合 域 求 逆 S 盒 、 轮 内 流水 处 理 以 及 32 快速 加 解密 运算 。 
轮 全 展开 轮 间 流 水 处 理 三 种 优化 技术 ， 为 加 解密 电路 带 来 此 外 , 分 别 利用 三 种 单一 制 算法 加 密 大 小 为 16K 的 明文 
了 极 大 的 性 能 提升 。 同 时 , 本 文 还 根据 加 解密 模块 和 轮 密 钥 数据 ， 与 本 文 的 混合 加 密 系 统 进行 加 密 性 能 以 及 相关 特性 的 
扩展 模块 在 算法 结构 上 的 相似 性 ， 在 轮 函 数 电路 内 对 这 两 对 比 ， 有 具体 情况 见 表 5。 
个 模块 进行 了 硬件 上 的 复 用 合并 ， 并 通过 多 路 选择 器 来 对 表 5 不 同体 制 加 密 算 法 性 能 与 特性 对 比 
输入 数据 以 及 移 位 逻辑 进行 选择 ， 进 一 步 地 提高 硬件 电路 Tab.5 Comparison of performance and characteristics of different 
的 利用 率 。 encryption algorithms 
a A 加 密 算 法 加 密 时 间 (ns) 双向 加 解密 额外 安全 信道 
4 ”实验 结果 与 性 能 对 比 Se 3 0 ee 
4.1 实验 环境 SM3 24.70 不 支持 不 需要 
本 文 基于 所 述 硬 件 架 构 , 使 用 硬件 描述 语言 Verilog-HDL SM4 0.64 支持 需要 
实现 了 高 速 混合 加 密 系统 的 整体 硬件 设计 ， 并 在 硬件 平台 混合 加 密 134.80 支持 不 需要 
Xilinx Ultrascale+ 系 列 的 ZCU102 开发 板 上 进行 板 级 测试 , 验 可 以 看 到 ， 虽 然 SM3 与 SM4 算法 在 加 密 时 间 上 均 有 优 
证 设计 正确 性 及 分 析 工 作 性 能 。 势 ， 但 它们 均 有 一 些 算法 体制 上 的 不 足 : SM3 算法 只 能 进行 
4.2 实验 结果 单 向 加 密 计 算 ， 无 法 从 杂凑 值 反 推 得 到 明文 数据 ; SM4 算法 
本 设计 完成 了 一 个 高 性 能 的 混合 加 密 系统 ， 其 系统 框图 需要 额外 的 安全 通道 进行 密 钥 的 传输 ， 在 密 钥 管理 上 繁琐 复 
如 图 16 所 示 。 该 系统 主要 由 SM2、SM3、SM4 三 种 加 密 算 。 杂 , 而 混合 加 密 算法 不 仅 与 SM2 算法 一 样 不 存在 上 述 算法 体 
法 模块 、 状 态 机 控制 模块 以 及 输入 输出 缓存 器 模块 组 成 ， 可 制 的 问题 ,而 且 在 加 密 时 间 上 也 比 SM2 算法 缩短 了 26.67%， 
以 采用 三 种 加 密 算 法 进行 高 速 防 窜改 混合 加 密 运 算 。 充分 体现 了 本 文 设计 的 混合 加 密 系统 的 优越 性 。 
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Fig. 16 Structure ofthe high speed hybrid encryption System 


系统 及 各 


在 系统 中 三 个 密码 模块 相互 独立 且 工 作 频 率 各 不 相同 ， 
居 交 互 以 异步 方式 处 理 。 
工作 频率 与 资源 消耗 情况 。 
表 4 混合 加 密 


表 4 为 总 


系统 以 及 各 算法 


算法 模块 硬件 实现 结 


Tab. 4 Hardware Implementaion results of the hybrid er 


system and each algorithm module 


算法 模块 Fmax(MHz) 资源 消耗 

SM2 215 41067 LUTS + 13837 Regs + 320 DSPs 

SM3 200 1513 LUTS + 1744 Regs 

SM4 400 14264LUTS + 13874 Regs 
混合 加 密 系 统 ”200 58313 LUTs + 36032 Regs + 320 DSPs 

表 4 中 可 看 出 ， 各 算法 模块 的 最 高 频率 与 资源 消耗 各 

不 相同 。 其 中 SM2 算法 模块 的 面积 开销 最 大 ， 所 需 的 LUT 
与 DSP 最 多 .而 SM3 模块 由 于 采取 了 循环 迭代 的 方式 实现 ， 
极 大 地 降低 了 电路 资源 消耗 ， 电 路 开销 最 小 。SM4 算法 模块 


在 考虑 硬件 效率 的 情况 


本 


选择 了 轮 间 全 展开 加 上 轮 内 四 级 流 


K 的 架构 实现 ， 


其 平均 每 组 数 ] 


居 加 密 时 间 降 低 至 一 个 时 钟 周 


期 ， 同 时 工作 频率 也 提升 至 400MHz， 非 常 适合 大 量 数据 的 


在 SM2 算法 的 点 运算 层 优化 上 , 本 文 的 二 级 并 行 方案 与 


传统 串 行 方案 P3、 三 级 并 行 方案 2 的 复 现 结 妥 性 能 对 比如 表 
6、7 所 示 。 其 中 AT 为 硬件 电路 的 面积 与 运算 时 间 平 方 的 乘 
职 ， 用 以 评估 不 同方 案 性 能 优 劣 。 
表 6 点 加 方案 的 性 能 对 比 
Tab.6 Comparison of performance for point 
addition schemes from different design 
点 加 方案 资源 消耗 LUT) ”运算 时 间 (hs) AT2(Xx10”) 

传统 串 行 [23] 8988 0.32 9.204 
二 级 并 行 (本 文 ) 18141 0.175 5.556 

三 级 并 行 [20] 24744 0.155 5.945 

表 7 倍 点 方案 的 性 能 对 比 
Tab.7 Comparison of performance for double 
point schemes from different design 
倍 点 方案 资源 消耗 LUT) ”运算 时 间 (hs) ”AI2(X 107) 
传统 串 行 [23] 8382 0.235 4.629 
二 级 并 行 ( 本 文 ) 17045 0.155 4.095 
三 级 并 行 [20] 24347 0.135 4.437 
可 以 看 到 ， 本 文 设计 的 二 级 并 行 加 速 方案 虽然 在 运算 时 
间 上 并 不 是 最 短 的 ， 但 是 其 AT? 指标 均 为 最 小 ， 相 比 于 传统 
串 行 方案 分 别 降低 了 39.6% 和 11.5%， 在 运算 时 间 和 面积 开 
销 的 协调 平衡 上 最 具 优 势 。 
在 SM4 算法 的 流水 线 优化 上 ， 表 8 则 列 出 了 在 32 轮 

全 展开 轮 间 流 水 的 结构 下 不 同 轮 内 流水 级 数 架构 的 FPGA 
电路 实现 情况 。 同 时 ， 表 中 还 引入 了 吞吐 率 / 面 积 的 指标 ， 
以 衡量 各 架构 的 速度 与 资源 消耗 情况 。 其 中 CLB 代表 


Xilinx FPGA 芯片 的 可 配 
Block, CLB)。 


逻辑 单元 (Configurable Logic 


表 8 SM4 轮 内 流水 结构 
Tab.8 Comparisons of FPGA implementations for SM4 different subpipelined structure 


轮 内 流水 级 数 J 关键 路 径 WE 
LUT LUTRAM Register CLB (MHz) (Mbps) (Mbps/CLB) 

No 12372 NA 6419 1547 4AND +36 XOR 169 21632 13.98 

名 14852 NA 12214 1857 2AND + 18 XOR 259 33152 17.85 

3 12161 496 14912 1963 1 AND + 14 XOR 334 42752 21.77 

4 14264 1488 13874 2110 2 AND + 8 XOR 400 $51200 24.26 

5 13216 1504 14624 2239 2AND +7XOR 420 53760 24.01 


ChinaXiv 合 作 期 刊 
表 8 可 以 看 到 ， 五 级 轮 内 流水 架构 的 时 钟 频率 和 吞吐 ”的 SM2 硬件 电路 由 于 采用 了 二 级 点 运算 并 行 架 构 , 在 运算 速 


率 均 为 最 高 ， 分 别 达 到 了 420MHz 和 53.7Gbps， 吞 吐 率 相 比率 与 硬件 利用 率 上 相 比 于 现 有 工作 更 具 优势 。 另 外 ， 本 文 在 
无 轮 内 流水 提高 了 136.7%。 而 在 吞吐 率 /面积 指标 上 , 四 级 轮 ” 轮 间 流水 结构 的 基础 上 ， 对 内 部 电路 进行 分 析 与 优化 ， 设 计 
内 流水 架构 取得 了 最 佳 的 性 能 ， 高 达 24.26 Mbps/CLB， 相 比 。 出 了 一 种 基于 复合 域 S 盒 的 SM4 二 次 流水 架构 ， 进 一 步 提 


> 


优化 前 提升 了 73.5%。 在 对 加 密 速 率 和 整体 硬件 消耗 进行 取 ”高 了 电路 工作 频率 ， 其 最 高 峰值 吞吐 率 达 到 了 53.76Gbit/s。 
售后 , 选取 四 级 轮 内 流水 架构 作为 混合 加 密 系 统 中 SM4 算法 综 上 所 述 ， 本 文 所 设计 的 混合 加 密 系统 通 过 采用 多 种 加 密 算 
的 实现 方案 ， 以 实现 高 吞吐 率 与 硬件 消耗 的 性 能 平衡 。 法 以 及 对 相关 电路 进行 优化 ， 在 保证 安全 性 的 同时 提供 了 极 
4.3 相关 工作 对 比 高 的 运算 速率 ， 解 决 了 大 数据 时 代 下 海量 数据 加 解密 的 高 速 
4.3.1 SM2 性 能 对 比 加 解密 需求 。 

将 SM2 算法 模块 的 硬件 实现 结果 与 其 他 同类 型 文献 工 表 10 SM4 硬件 设计 性 能 对 比 

作对 比 ， 得 出 如 表 9 所 示 的 SM2 算法 点 乘 运算 性 能 对 比 情 况 。 Tab. 10 ”Comparison ofperformance from different hardware 
表 9 点 乘 运算 硬件 实现 性 能 对 比 implementation of SM4 
Tab.9 Comparison of performance from different hardware 文献 平台 资源 消耗 Fmax/MHz 吞吐 率 /Gbps 
implementation of point multiplication 文献 [10] Stratix II 8373 ALMs 162 20.736 
文献 平台 资源 消耗 Fmax/MHz 运算 时 间 /hs 文献 [11] Stratix II 7661 ALMs 170 21.760 
文献 [23] 40nm 127K Gates 388 480 文献 [26] Stratix IV 8045 ALMs 212.13 27.153 
文献 [18] 130nm 659K Gates 163.7 20.36 文献 [13] Virtex-4 7669 CLBs 298 26.224 
文献 [24] 130nm 352.5K Gates 100 305.82 文献 [29] Cyclone IV 33397 LEs 100 12.8 
文献 [25] 130nm 248.9K Gates 200 71.5 3213 LUTs +7736 Regs 
文献 [7] Stratix I 4742ALMs+8DSPs 62.3 770 了 [30] pe 133BRAMs 0 人 
文献 [20] Virtex-7 29876LUTs+144DSPs 73.6 221 本 文 (四 级 轮 内 流水 ) ”ZCU102 2110 CLBs 400 51.200 
文献 [27] Virtex-2 12425LUTs 55.7 8250 本 文 (五 级 轮 内 流水 ) ”ZCU102 2239 CLBs 420 53.760 
文献 [28] Virtex-2 36524LUTs 63.2 1470 
本 文 ZCU102 41067LUTs+320DSPs 215 68.37 参考 文献 
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